FILTER MODE ACTIVE

#визуальное понимание

Найдено записей: 3

#визуальное понимание24.07.2025

GPT-4o Видит Текст, Но Видит ли Он Ясно? Исследование Многоформатных Моделей в Задачах Компьютерного Зрения

Исследование EPFL оценивает многоформатные модели, включая GPT-4o, на ключевых задачах компьютерного зрения, выявляя их сильные стороны в семантическом понимании и отставание от специализированных моделей.

#визуальное понимание28.05.2025

MMaDA: Прорывная унифицированная мульти-модальная диффузионная модель для работы с текстом и изображениями

MMaDA — новая унифицированная мульти-модальная диффузионная модель, которая превосходит существующие решения в задачах текстового рассуждения, визуального понимания и генерации изображений.

#визуальное понимание25.04.2025

Skywork AI представляет R1V2: прорыв в мультимодальном рассуждении с гибридным обучением с подкреплением

Skywork AI представляет R1V2 — современную мультимодальную модель с гибридным обучением с подкреплением, которая улучшает специализированное рассуждение и обобщение, превосходя многие открытые и проприетарные модели.